雑談 2025年10-12月
2025/12/31
振り返り
1年お疲れさまでした!良いお年を!!nomadoor.iconginyakt.icon
2025/12/27
まぁ、エージェントチックなことはしてるよね…nomadoor.icon
人体以外の制御画像も下書きしてるんだろうか
私信だがゲームに忙しくて最近色々追えていないmorisoba65536.icon
2025/12/13
出来たぜ!nomadoor.icon
すごすぎ!!!!はるひ.iconginyakt.iconwogikaze.icon
うわーい\(^o^)/nomadoor.icon
2025/12/9
バカスカUI変わるせいでどの時点で説明書いたらいいかわかんないんだぜ…nomadoor.icon
2025/12/7
2025/12/02
2025/11/27
軽さ性能柔軟性ライセンス、完璧
2025/11/26
Flux.2なにもかもでかすぎる…nomadoor.icon
なんかredditで5Bモデルの噂でてましたね…nomadoor.icon
ComfyUIのコミットにあったZ-Imageってなんじゃらほいと思ってたけど、これがそうなのか
2025/11/21
🦊雑に学ぶComfyUIだとちょっとやっぱり体系的にまとめらんないんで、ちゃんとしたサイトを作ることにしましたnomadoor.icon なんか仕事に繋げないとなぁとも思うしね…nomadoor.icon
+1, サイトができたらここで共有してほしいです! ginyakt.iconはるひ.icon
もちろんです!というかスペシャルサンクスとして、でっかくここを紹介しておこう…nomadoor.icon
Cosenseで下手に綺麗に整えようとしたせいで、あんまり自由にかけなくなってたところもあったんですが、もう自由にごちゃごちゃ書いちゃってください!nomadoor.icon
2025/11/19
KSampler置き換える系は仕方ないね…nomadoor.icon
2025/11/18
VLMに画像を渡さないほうがむしろプロンプトが効く。
なんやと…morisoba65536.icon
2025/11/16
まぁ、デスクトップ版であんまり深い階層触っちゃダメだね…
単純な画像にかけるものの知識量だとChatGPTのImage生成(ここでの登録名忘れた…)のほうがNano Bananaよりも優れていそう。チンアナゴとかのあまり学習されてなさそうな🍌では出せなかったがChatGPT-Imageは出してきたmorisoba65536.icon 2025/11/14
これだ👀morisoba65536.icon
2025/11/12
AndroidアプリでTODOリスト作るというありそうなお題で(いくつか間違えやエアプ感出して)ブログ記事を作らせ(made in ai)てGrokに投げ込んでみたmorisoba65536.icon
意外にも修正箇所は(少なくとも点数は)変わらず、軽く比較した感じでも内容も概ね同じ感じ
強いて言うなら口が普通に悪く(欲言えば手厳しく)なってるくらいか…(Fワード連呼するくらいの内容を予想してたので、予想ほどやばい発言はしてないが)morisoba65536.icon
ある意味元々遠慮がないので口調(と小言の追加)くらいしか変わらなかったのかも知れないmorisoba65536.icon
2025/11/11
音声モデルだけは中途半端な日本語対応だと使う気にならないから自国でやるしかないのかもしれないnomadoor.icon
某ゆっくり(仮)くらい明確に「人間の声じゃない」で権利フリーな物が出てきたらそれはそれでありがたいんですがね…(声紋だの何だののややこしいものを一切気にせずに済むので…)
もしくは完全に著作権切れになってるくらいもういない人物の音声とか(蓄音機の発明直後の人物の声ならそろそろそうなってそうだが…)morisoba65536.icon
いっそのことSplatoonみたいに何言ってるかわからない音声を使おう()nomadoor.icon
あとはもう身内の声をボイスクローンするしかない
音声が主じゃないコンテンツ(テキストベースの読み上げ等)でガチで何処にも気にせず使えるTTS欲しいな~というのが割とある(個人的な需要)morisoba65536.icon
nano banana 2さん順当に強いですね…nomadoor.icon
もうMLLMとの統合モデルじゃないと戦えないだろうけど、作れるのも動かせるのもビッグテックしかいないんじゃないかな
Cosenseのプロジェクト作るときにUpload images toでscrapboxとGyazo選べるけどこれの違いなんだろ?(どっち選んでもある程度画像でかいと勝手にオフロードされる?)morisoba65536.icon
GyazoはCosense作ってる会社の関連サービスなんですが、Gyazoはただで無限に画像と動画(無料版だと数秒の動画だけ?)あげられるので、Gyazoにしたほうがいいですねnomadoor.icon
Scrapboxの方は、jsonでも何でもアップロードできるけど容量が決まってるので勿体ないというか、損です
なるほどmorisoba65536.icon
2025/11/10
(あれ、書こうと思ったらもう自分で書いてあった…)nomadoor.icon
https://www.youtube.com/shorts/oXOVOtdaZko
漫画のワンダンスが好きだったのでメモnomadoor.icon
元がMMDみたいと酷評されていたけど、まぁ…確かに…
AIの方はグローで隠しまくってるので、AIが良いというわけではないけれど、最近の3DCGでここまで後処理かけてないのも珍しいね
ComfyUIのフロントエンド大改修でなんか起動できないループ入ったな(;´Д`)nomadoor.icon
--front-end-version Comfy-Org/ComfyUI_frontend@latest消せば問題ないけど、原因がわからないのはツライ…
このところRouWei-Gemma触ってるけどSDXLにプロンプト追従性能が追加されるの普通に便利だな…morisoba65536.icon 2025/11/08
軽くAIに論文読み込ませた感じ、どうやら英語で「答えがなければnone」という指示が入ると性能が大きく落ちるようで、noneが誤訳・誤解釈につながることが英語のスコア低下につながった模様morisoba65536.icon
Gemini 1.5 Flashの性能がいいのは、良くも悪くも考えすぎてないからなのかなnomadoor.icon
自分でtwitterに投稿したものは全くウケず…redditに投稿したのが回り回ってtwitterに帰って来る不思議nomadoor.icon
これが栽培漁業か…
Twitterは元アカウントのフォロワー数でほぼ決まるような所あるからなぁ…(元アカウントの発見率に9割依存してる感がある)morisoba65536.icon
割と真面目にAIでもものづくり、「自分の知らない領域をどう調べて補間しながら作れるか」と言うのが問われる気はする(本当に事前知識と経験がないと無理な領域もあるにはあるが)morisoba65536.icon
例えばダンスの動きや型、服装のスタイルや音楽の拍子とBPMの関係とかそういった物を調べる手段がChatAIによってできたので、ただ生成モデルにプロンプトを打ち込んでるだけより生成AI(と、その裏付けの検索)で裏を取りながら必要な精度を高める指示をしていくので、自分の作ろうとしてるものの構成要素をどれだけ自認できるかに関連していきそうな気もする。morisoba65536.icon
2025/11/07
RouWei-Gemma+ネイティブのCLIPのworkflowを該当ページに追加した。morisoba65536.icon 失敗した時の画像も数枚は残してないと問題のあった組み合わせの特定がモデル不明で出来なくなるので困るな(困った)morisoba65536.icon
2025/11/05
海外の掲示板でのやり取りが増えると「無自覚な文化的な違い」というところで難しいねとなりがちmorisoba65536.icon
書き込む情報粒度が特に難しい…(短く圧縮するのが特に)morisoba65536.icon
根本的にキャッチボール的に会話するのが好きじゃないから情報源としてはWiki形式で全部書いてあって全部勝手に読めるほうが好きではあるんよね…morisoba65536.icon
アメリカンなテンションで陽気にいけるので結構好きですねぇ…nomadoor.icon
最近日本語もなんか英語の翻訳みたいな文章書いてる気がする
各社ちゃんと売れる技術になってきて、もうオープンにしないんじゃないかという不安があるnomadoor.icon
SD1.5の時代と違ってフルファインチューニングを誤家庭でできる時代じゃないので、正直OSS生成AI界隈はぼちぼち死ぬかもしれないと思ったり思わなかったり
(Comfy.orgも最近やることなくてAPIノードの追加くらいしかしてないし…)nomadoor.icon
ComfyUI自体は残る、なんなら発展すると思いますが、localではなくなりつつありますよね...interfaceとして割と完成度高くなってますしginyakt.icon
ローカルとAPIの橋渡し的な役割ですよねnomadoor.icon
モデル作るために大金使う必要も無いし、ゴールドラッシュのときのジーンズ的な、旨いポジションではある…
2025/11/02
2025/11/1
ComfyUI、ついにVUE版が来たけど、なんか、見にくい気がする…nomadoor.icon
https://gyazo.com/f9c046614d7d1d1ff3e95c452db475bd
もう少しブラッシュアップされるのを待ったほうがいいかな
書くべき場所がわからんのでひとまずここに、Wan2.1のI2V向けLoraを🦊Wan2.1_VACEに適用してみたところちゃんと動く?みたい(キーの不一致で怒られているのでI2VでトレーニングされたLoraで確認)morisoba65536.icon 意外とどこにもVACEにI2V向けLoraを試した例が書かれていないので自分で調べてみた
2025/10/30
Sora2、単なる方向性の迷走かと思ってたが、動画モデルの困惑度とプロンプトを記録しておけば「モデルが苦手な理解を特定できる」のでLLM(GPT)の強化にも繋がりそうだな…(計算資源的にとても富豪的なデータ集めだけども)morisoba65536.icon
ただこれが前提ならここまで気前よく30回無料とか出してる理由も割とわかる(かなり実践的なデータが集まるので)morisoba65536.icon
音楽生成AIとUniversal Music Groupの絡みが話題になってるのでまとめたいなnomadoor.icon
愛用しておりますnomadoor.icon
嬉しいけど、ただより高いものは無いからね…
2025/10/29
エコシステムがすでに揃っている(良い意味で枯れている)SDXLでT5以上の高性能Encoderが使えるので複数人をそれなりに器用に書き分けてくれる(少なくともFluxレベルの書き分け能力で)と言うのは中々良いmorisoba65536.icon 思えばそもそも論だがSDXL以降は指がグニャる頻度はかなり落ちたなぁとは感じる(珍しい訳では無いが上手くいくことも普通にある程度にはなってる)
2025/10/28
ACE-Step使ってると「120〜150の間のランダムな値」みたいなのが割と欲しくなる(音楽ガチャ)morisoba65536.icon 何かの計算系ノードでできそうな気もするが…
もしくは一定のプリセットランダム(120,130,140,150みたいなの)があれば画像生成でも縦横サイズガチャできて楽しそうなんだけどもmorisoba65536.icon
計算系ノードちゃんと掘ればありそうな気はするmorisoba65536.icon
ただもうアーカイブになってるので、Power PuterとかがRandomに対応してくれるとウレシィ…
2025/10/25
せっかくだしみんなやらない…?nomadoor.icon
2025/10/24
Generation/Editing系でよく採用されているbenchについて、そのうちまとめを書いておきたいし、自環境で試せるものなのだろうかginyakt.icon
+1nomadoor.icon
Invited to Comfy Cloud Private Betaが来たので、そのうち試したいginyakt.icon Private Beta Discord Serverを見る限り、現在は不具合が多いようです
Private Beta情報を外部にどこまで公開してよいのか不明
雑に学ぶの方にまとめるのはもっと安定してからにしようとは思ってますねnomadoor.icon
ダッシュボードは欲しい…
2025/10/23
色々画像・動画生成モデル触っててどうにも「特定の動作などキーワード」で画風とか他の場所にまで影響与えるパターンも散見されてプロンプト難しいね、となる。morisoba65536.icon
例えばSora2でアニメ調とか指定してても「ロック」とか「インタビュー」と書くと突然実写化するなど、モデルによってクセも違うのでまあまあ厄介。ローカルモデルなら乱数固定してキーワード絞り込んでネガティブ使ったりもできるのだが…(Webの奴だと乱数固定できず回数消費もネックに)morisoba65536.icon
同じく感想 レベルの話だが、「(なんか色々事情があり)釘は刺しておきたいが直接表現は避けたいニュアンス」みたいな翻訳をバックである問題も含めた上で翻訳依頼した時、GPT-5/Gemini/Grok/Qwen3辺りはどストレートに事情を書いてマサカリぶん投げて、歯に布着せないのに対してClaude 4/DeepSeek-V3.2-Exp辺りはそれなりに意図を汲み取って迂遠さを残した言い回しにしてくれるのでこう言う所は得意なようだ(この辺はモデルのチューニングの方向性的なところだろうけど)morisoba65536.icon 2025/10/22
ComfyUI v0.3.66にて、Subgraph Widget Editing機能が追加された。かなり良アプデなのでは?ginyakt.icon
サブグラフに入らずに新しいパラメータパネルから直接サブグラフのパラメータが編集できるようになっている
かるく触ってみた感じ、パラメータの表示/非表示が簡単に設定できるし、recommended widgetsで自動設定されるのも良き。ただし、どのnodeから引っ張ってきたパラメータか、ぱっと見分からないのが難点ですかね?パラメータ名のエイリアス設定ができるとうれしい。入れ子にするとDisconnectedは残念。ginyakt.icon
2025/10/21
結構いろんなモデルが出ている
読まなきゃなぁと思っているものがタブにたくさん眠っている…(; ・`ω・´)nomadoor.icon
なんだってーnomadoor.icon
Adobeが買収するのにOSSのままなんて…
音声とテキストからリアルな会話キャラクター アニメーションを生成し、複数のキャラクターの会話と優れたリアリズムを実現します。
とのことらしい
とりあえず書く事が多い一日だったmorisoba65536.icon
VHS viedeo combineにバグがあるらしい(だいぶ前から)nomadoor.icon
とはいえ、特に気づくほどの劣化は見たこと無いかなぁ
こればっかりは公式のSave Videoノードの機能が少なすぎるので使い続けたいけど…
2025/10/20
https://nof1.ai/DeepSeekのモデルが投資成績良いのは流石に母体が投資会社だけあるな…となる(おそらく学習データセットにもそういうデータが多いのだろう)morisoba65536.icon 本職のみなさんも全部追えないって言ってましたしね… 画像だけならまだしもLLMまで全部網羅できてる人なんてこの世におるんじゃろうか…nomadoor.icon
本職の人も企業系の話(論文とか)は追えてても無から生えてくる野生の開発者による草の根技術はもう把握するほうが無理だろうからなぁ…morisoba65536.icon
2025/10/19
Sora 2なんか、どんどんフリッカーひどくなっているような気がするnomadoor.icon 蒸留モデルに変えた?
フリッカーではないが、割と1フレーム目が荒れる事が多かったり、カット割り多用したり指示を割と無視する(これは多分わかってないんじゃなくて曖昧な指示を通せるようにした副作用だと思うが…)等割とクセは強いmorisoba65536.icon
なんか最新のComfyUI+Pytorch2.9のうちの環境でComfyUI-NAGが動かなくなっている…morisoba65536.icon 原因の切り分けは上手くできてないが、長文プロンプトをいれると失敗してる(短文で成功するかは未確認)のでもしかして文字数制限が厳しい…?
2025/10/21確認したところ短い生成実績のあるプロンプトなら行けたのでどうやらNAGがあまり長いプロンプトに対応していないようだ。morisoba65536.icon
2025/10/18
2025/10/17
初カスタムノード…(99%AI産)nomadoor.icon
👍️morisoba65536.iconginyakt.icon
2025/10/16
2025/10/15
WanAnimateのポーズ入力とか全部無視して、VACE Extensionとしてtext2videoするってことかなnomadoor.icon
2025/10/14
ACE-Step、ピアノの音が万能すぎるからか、かなり意図してピアノを弱める指示をしないとピアノ独奏会になりがちな程度に.「とりあえず主旋律にピアノ」を回してくる(インスト曲を作ろうとした場合)morisoba65536.icon ピアノを入れてサブにしたい場合(piano:0.25)より弱めるくらいでちょうどよくなる…
ただピアノの強さはともかく結構変な楽器の使い方も指示するとしてくれるので、楽器の使い方のバリエーションはSora2より普通に優秀かもしれない(音楽専用モデルなんだからそりゃそうといえばそうだろうけど)
2025/10/12
そしてサウンド保存系ノードがことごとく日付とかのパースに未対応…またお前らか…morisoba65536.icon
ついでにワークフローも未保存…ちと面倒だな…
こちらの現実的な解決策としては🦊空の画像ノード→🦊Save Animated WEBPノードで、保存するフレームレートか画像の色を外出しでインクリメントあたり(全く同じ画像では保存してくれないので)に設定して保存ごとにwebpも保存が一番容量に優しい感じかもしれない(だいぶ苦しいが)morisoba65536.icon 2025/10/10
前からこの処理してたけど、他に要因たくさんあるのでピクセルパーフェクトにはならないと思う
というか画像はtextencodeノードに入力しとかないとQwen-VLの処理入らない気がするけどなぁ
2025/10/9
これは明確に悪意がありそうなので別だけど、Vibe codingしまくってたらいつか自分もやらかしそうな気がするnomadoor.icon
2025/10/7
Sora 2 APIだと透かしないのかnomadoor.icon 2025/10/6
Grokも動画生成対応したみたい、日本語は話せない(謎言語になる)が声や音は出る I2V専用
一枚目は必ず1フレーム目でそこから連続する動画になる(Sora 2のようにプロンプトで実質的な参照画像扱いにはならない) 無茶な遷移を指定しても連続した動画になる
一応必要に応じてカット切り替えも使うが基本的はシームレスな遷移を好むようで可能な限りシームレスに動く
センシティブはかなり緩い(と言うよりこれはSora2がめっちゃ厳しいと言う方が正解かもしれない)
良くも悪くもかなり素直に「指示に忠実に従う」タイプの挙動(たまに途中からコンテキスト忘れるが)。割とアバウトな指示でもよしなにする一方で結構指示無視もしがちなSora2より制御性は高いかも知れない
2025/10/4
Sora 2でしばらく遊んで、今までのモデルに比べて明らかに強いのが「画面外のオブジェクトを画面に収まる位置にカメラワークをして何らかの操作をする(今画面に映ってない位置のドアを開けるなど)」「単一の動画内で複数のカットをCharacter一貫性を維持して使い分けれる(PVの様なカットが目まぐるしく変わるものでも対応できる)」といった所がホントに強い。morisoba65536.icon 「アニメのタイアップPV」見たいなアニメと実写がころころ入れ替わるような映像でも対応できる。
ただ、長文・詳細な指示ほど安定感が落ちるし編集能力は低め(Remix機能もあまり指示通りには動いてくれない)なので、少なくとも現時点ではあくまでもメインスコープはSNS向けショート動画っぽいなぁ…(ポテンシャルレベルではガッツリ映像作れそうだが今のところそちらに作りが向いていない)morisoba65536.icon
2025/10/3
VACEのreferenceと似た挙動だけどどういう仕組みなのかなnomadoor.icon
多分一フレーム目の画像の服を着た人物が動いてる動画を複数学習させたんじゃないかな…?morisoba65536.icon
単純に参照画像→編集後画像の2フレームで学習できたりするのかなnomadoor.icon
データセット作るのが大変じゃ…
2025/10/2
2025/10/1
にしてもAniSoraが微笑ましく見えるくらい食わせまくってるな…